استارتاپ چینی DeepSeek با مدل آزمایشی جدید خود به نام DeepSeek-V3.2-Exp که روز دوشنبه منتشر شد، به دنبال افزایش کارایی و کاهش هزینههای هوش مصنوعی است. این مدل بر اساس مدل قبلی خود، DeepSeek-V3.1-Terminus ساخته شده و هدف آن بهبود کارایی سیستمهای هوش مصنوعی است.
به گفته ادینا یاکفو، مسئول جامعه چینی در Hugging Face، این مدل بر روی کاهش هزینه و اشتراکگذاری متنباز تمرکز دارد. یکی از ویژگیهای جدید این مدل، DSA (DeepSeek Sparse Attention) است که به هوش مصنوعی کمک میکند تا مستندات و مکالمات طولانی را بهتر مدیریت کند و هزینههای عملیاتی را نسبت به نسخه قبلی به نصف کاهش دهد.
مدلهای هوش مصنوعی بر اساس دادههای آموزشی و اطلاعات جدید تصمیمگیری میکنند. توجه نازک به این معناست که فقط دادههای مهم برای وظیفه مورد نظر در نظر گرفته میشود و این میتواند به صرفهجویی در زمان و هزینه کمک کند. اما نگرانیهایی نیز درباره کاهش قابلیت اطمینان مدلها به دلیل عدم نظارت بر اطلاعات حذف شده وجود دارد.
اکاترینا آلمسک، یکی از بنیانگذاران و مدیران BlankPage Capital، میگوید: «مدلهای توجه نازک ممکن است برخی از جزئیات مهم را از دست بدهند.» این موضوع میتواند برای ایمنی و فراگیری هوش مصنوعی مشکلساز باشد.
با وجود گمانهزنیها درباره حبابی در بازار هوش مصنوعی، این فناوری همچنان در مرکز رقابتهای ژئوپولیتیکی میان ایالات متحده و چین قرار دارد. به گفته یاکفو، مدلهای DeepSeek به راحتی با چیپهای ساخت چین مانند Ascend و Cambricon کار میکنند و میتوانند به صورت محلی بر روی سختافزار داخلی اجرا شوند.
DeepSeek اذعان دارد که مدل V3.2-Exp یک «گام میانی به سمت معماری نسل بعدی» است. به گفته نیک پتیس، این شرکت در حال بازیابی ارزشهای خود از طریق کارایی و قدرت است.
منبع: CNBC
نظری برای این خبر ثبت نشده است .